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摘 要 : 现 有 目标 检测 算法 主要 以 图 像 中 的 大 目标 作为 研究 对 象 ， 针 对 小 目标 的 研究 比较 少 且 存在 检测 精确 度 低 、 
无 法 满足 实时 性 要 求 的 问题 ， 基 于 此 ， 提 出 一 种 基于 深度 学 习 目 标 检测 框架 PVANet 的 实时 小 目标 检测 方法 。 首先， 
构建 一 个 专用 于 小 目标 检测 的 基准 数据 集 ， 它 包含 的 目标 在 一 幅 图 像 中 的 占 比 非常 小 且 存 在 截断 、 谈 挡 等 干扰 ， 可 
以 更 好 地 评估 小 目标 检测 方法 的 优 劣 ; 其 次 ， 结 合 区 域 建议 网 络 (RPN) 提 出 一 种 生成 高 质量 小 目标 候选 框 的 方法 以 
提高 算法 的 检测 精确 度 和 速度 ; 选用 两 种 新 的 学 习 滨 策略 “step” 和 “inv” 以 改善 模型 性 能 ， 进 一 步 提 升 检 测 精确 
度 。 在 构建 的 小 目标 数据 集 上 ， 相 比 原 PVANet 算法 平均 检测 精确 度 提 高 了 10.67%, 速度 提升 了 约 30%。 实 验 结 果 
表明 ， ig 的 方法 是 一 个 有 效 的 小 目标 检测 算法 ， 达 到 了 实时 检测 的 效果 。 
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Real-time small object detection method based on improved pvanet 
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Abstract: Existing object detection algorithms are mainly aimed at detecting big objects in an image. Research on small 
object detection is still too scarce and there are problems with low detection accuracy and failure to meet the real-time 
requirement. This paper proposed a real-time small object detection method based on deep learning framework PVANet. 
Firstly, it built a benchmark dataset especially for small object detection problem. The dataset consisted of small objects 
covering a very small part of an image and also contained some interferences such as truncation and overlap. Secondly, 
combining with the Region Proposal Network (RPN) , it designed a strategy to generate high-quality candidate proposals for 
small objects to raise the detection accuracy and speed. Finally, it adopted two new learning rate policies "step" and "inv" to 
further enhance the detection accuracy. The proposed method achieved the mAP(mean average precision) by 10.67% and 
speed by 30% improvement over the original PVANet algorithm. Experimental results shows that this method is effective on 
small object detection and can run in real time. 
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0 = 将 改进 的 R-CNN 算法 一 一 Fast R-CNNISI 和 Faster R-CNN 算 
引言 法 用 于 小 目标 检测 以 提升 测试 精确 度 和 速度 : 文献 [9，10] 

在 基于 航拍 的 资源 勘探 、 地 震 火灾 救援 等 实际 应 用 中 ， HH) Fast R-CNN 的 上 下 文 信息 对 小 物体 进行 检测 以 提升 检 

于 拍摄 距离 远 ， 以 致 拍摄 到 的 目标 成 像 比 较 小 ， 而 复杂 的 测 性 能 ， 文 献 [11] 利 用 Faster R-CNN 检测 行人 ， 分 析 行 人 检 
背景 信息 又 会 对 检测 造成 干扰 ， 如 何 实时 检测 出 这 样 的 小 目 测 的 误差 主要 来 源 于 低 分 辩 率 的 特征 图 和 背景 干扰 ， 通 过 对 
标 成 为 研究 的 难点 与 热点 问题 。 区 域 建议 网 络 (region proposal network，RPN)U 进 行 修 改 来 提 
近年 来 ， 各 种 目标 检测 算法 如 FasterR-CNNII、SSDDI、 升 检 测 精 确 度 ; 文献 [12] 利 用 Faster R-CNN 来 检测 公司 的 标 


YOLOv26! 等 在 计算 机 视觉 领域 取得 了 显著 的 成 果 ， 表现 为 志 这 种 小 目标 ， 在 文献 [11] 的 基础 上 进一步 分 析 目 标的 大 小 
在 PASCAL VOCMI 等 通用 数据 集 上 的 检测 性 能 不 断 提高 。 这 ”及 不 同 层级 的 特征 图 对 检测 效果 的 影响 。 此 外 ， 也 有 学 者 针 
些 通 用 数据 集 的 图 像 中 包含 的 目标 通常 在 整 张 图 中 占有 比较 。 对 某 一 类 小 目标 设计 新 的 网 络 结构 进行 目标 检测 ， 文 献 [13] 
大 的 比例 ， 而 文献 [5] 评 估 发 现 ， 上 述 目 标 检测 算法 对 图 像 中 ”中 提出 一 种 端 到 端的 卷 积 神经 网 络 来 检测 小 的 交通 标志 ， 在 
的 小 目标 测试 精确 度 较 差 , 无 法 满足 小 目标 检测 应 用 的 需求 。 ”精确 度 和 速度 方面 都 优 于 Fast R-CNN 算法 。 虽 然 这 些 研究 

有 一 些 学 者 针对 小 目标 检测 问题 已 做 了 相关 的 研究 。 在 小 目标 检测 问题 上 取得 了 不 少 成 果 并 且 提 供 了 很 多 新 颖 的 


lu 


= 


Chen 等 人 [61 将 首次 将 上 下 文 信息 与 R-CNN 算法 中 相 结 合 i 思路 ,但 它们 研究 的 小 目标 在 图 像 中 仍然 占有 比较 大 的 比例 ， 
行 小 目标 检测 ,与 传统 目标 检测 算法 相 比 提高 了 测试 精确 度 ， 实时 性 处 理 方面 也 达 不 到 要 求 。 
但 仍 存在 效率 低 、 占 存储 空间 大 的 问题 。 随 后 ， 一 些 研究 者 由 此 本 文 主要 研究 实时 小 目标 检测 问题 。 对 于 小 目标 ， 
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本 文 不 将 它们 限制 为 现实 世界 中 尺寸 较 小 的 物体 ， 而 是 指 广 练 集 和 测试 集 , 每 个 子 集 分 别 对 应 50 个 图 片 集 。 然 后 从 训练 
义 上 的 小 目标 ， 即 那些 在 一 幅 图 像 中 占据 比例 很 小 的 物体 。 集中 随机 选取 10 个 图 片 集 作为 验证 集 ， 剩 余 40 个 图 片 集 供 
对 小 目标 进行 检测 主要 需 考 虑 以 下 难点 。 首 先 ， 与 整 张 图 像 ” 训练 用 。Neovision2 Tower 数据 集 包 含 人 、 自 行车 、 小 汽车 、 
相 比 ， 需 检测 的 目标 占 的 比例 很 小 ， 背 景 信息 会 对 检测 造成 卡车、 公交 车 共 五 类 目标 ， 本 文选 取 人 和 自行 车 这 两 种 小 目 
很 大 干扰 ， 会 大 大 增加 精准 定位 小 目标 的 困难 ; 其 次 ,与 较 标 作为 研究 对 象 。 
大 的 目标 相 比 ， 小 目标 的 像素 数 更 少 ， 因 此 能 提取 到 的 有 效 
的 特征 信息 就 会 更 少 ， 男 外 ， 一 幅 图 像 中 小 目标 数量 往往 比 
Rem ALMA) BZA AS, KHER 
步 增加 检测 的 难度 。 
PVANetI4 是 一 种 可 用 于 实时 目标 检测 的 深 但 轻 量化 的 
卷 积 神经 网 络 ， 它 用 特征 提取 网 络 生成 特征 向 量 图 ， 再 基于 
Faster R-CNN 算法 中 提出 的 RPN 生成 高 质量 的 目标 候选 杠 
(region proposal) 用 于 后 续 的 目标 检测 和 定位 。 在 通用 数据 集 
W PASCAL VOC 上 的 测试 结果 表明 ，PVANet 算法 的 性 能 要 
优 于 Faster R-CNN, SSD, YOLOv2 等 算法 。 特别 地 , PVANet 
的 特征 提取 层 中 的 卷 积 核 较 小 ， 因 此 可 以 尽 可 能 多 地 保留 低 
层 特征 ， 这 对 小 目标 检测 是 有 利 的 。 综 上 ， 本 文通 过 改进 
PVANet 算法 以 提高 小 目标 的 检测 性 能 ， 主 要 贡献 如 下 : 
a) 构 建 专用 于 小 目标 检测 的 基准 数据 集 。 相 比 其 他 小 
标 检 测 研究 中 采用 的 数据 集 ， 该 数据 集中 目标 在 图 像 中 占 更 
小 的 比例 ， 且 和 截断、 遮挡 等 不 完整 的 目标 信息 会 增加 检测 难 
度 ， 可 以 训练 出 性 能 更 稳定 的 小 目标 检测 模型 。 

b) 针 对 原 PVANet 算法 对 小 目标 定位 差 的 问题 ， 提 出 一 
种 生成 高 质量 的 小 目标 候选 框 的 方法 ， 提 升 了 检测 的 精确 度 
和 速度 ， 另 外 根据 训练 模型 的 特点 选用 两 种 新 的 学 习 率 策略 
进一步 改善 模型 性 能 。 


1 ”构建 小 目标 数据 集 


b) 本 文 的 小 目标 数据 集 的 目标 标注 举例 
图 1 两 种 数据 集 的 目标 标注 形式 示意 图 


数据 集 是 分 析 和 评估 基于 深度 学 习 的 网 络 模 型 好 坏 的 关 Fig.1 Diagram of the bounding boxes of the object in tow datasets 
键 因素 。Neovision2 Tower 数据 集 05 是 美国 国防 高 级 研究 计 构建 的 小 目标 数据 集 包 含 两 种 拍摄 角度 的 图 像 : 第 一 种 


划 局 (Defense Advanced Research Projects Agency, DARPA) 构 图 像 是 由 具有 固定 倾斜 角度 的 相机 俯 拍 获得 ， 另 一 种 是 第 一 
建 的 用 于 目标 检测 和 实时 跟踪 的 视频 图 像 数 据 集 ， 由 于 拍摄 拍摄 视角 旋转 90 度 而 成 。 采 用 这 两 种 视角 的 图 像 可 以 增加 训 
距离 远 ， 数 据 集中 的 目标 比较 小 ， 而 且 拍 摄 场景 中 目标 多 且 练 数据 的 多 样 性 ， 并 使 检测 模型 具有 更 好 的 泛 化 性 能 。 在 本 
杂乱 ， 存 在 着 可 变 光照 和 遮挡 干扰 ， 这 些 都 使 其 成 为 具有 挑 文 构建 的 小 目标 数据 集中 ， 人 的 平均 大 小 为 17x24 个 像素 ， 

战 性 的 目标 检测 数据 集 。 因 此 本 文选 取 Neovision2 Tower 数 ” 在 960x544 像素 的 整 幅 图 片 中 占 比 例 约 为 0.078%; 自行 车 的 
据 集 来 构建 小 目标 数据 集 。Neovision2 Tower 数据 集 包 含 100 F 均 大 小 为 40x38 像素 ， 在 一 幅 图 片 中 占 比例 约 为 0.291%。 


ley 


个 视频 片段 ， 每 个 视频 片段 已 截取 成 900 张 高 分 辩 率 本 文 提出 的 小 目标 数据 集中 目标 平均 占 整 幅 图 像 比 例 为 
1920x1080 像素 的 PNG 图 片 集 , 高 清 图 像 可 以 尽 可 能 多 地 保 0.184%, 5 PASCAL VOC 通用 数据 集 和 文献 [6] 中 提出 的 小 
留 小 目标 信息 。 本 文 主要 从 以 下 几 方 面 构建 小 目标 数据 集 ， 目标 数据 集 相 比 ， 目 标 占 比 更 小 ， 如 表 1 所 示 。 
为 提高 通用 性 ， 格 式 参照 PASCAL VOC. 表 1 本 文 构建 的 小 目标 数据 集 与 其 他 数据 集 的 对 比 
a) 对 图 像 降 维 ， 使 其 大 小 为 960x544 像素 ， 并 将 其 压缩 Table 1 Comparison of small object dataset in this paper with others 
为 .jpg 格式 , 以 使 数据 格式 与 PASCAL VOC 等 常用 数据 集 相 or PASCAL ”文献 [7] 中 的 。 本 文 的 小 目标 集 
同 ， 这 对 加 速 网 络 模型 的 训练 过 程 是 必要 的 。 VOC 数据 集 ”小 目标 集 A 自行 车 平均 
b) 修 改 目 标的 标注 框 。 原 数据 集中 目标 的 标注 信息 由 4 标 平均 占 整 幅 
个 边界 坐标 一 (Xl,YD)、(X2,Y2)、(X3,Y3)、(X4,Y4) 组 成 。 昌 aerea S A EEA 0.184 
然 这 4 个 坐标 构成 的 边界 框 尽 可 能 地 贴近 了 目标 ， 但 它 不 是 文献 [6] 中 提出 的 小 目标 数据 集 是 比较 优秀 的 构建 数据 
和 矩形， 不 符合 通用 数据 集 规范 。 为 此 修改 标注 框 为 矩形 框 ， 集 的 范例 ， 被 不 少 研究 者 采用 进行 小 目标 检测 。 本 文 设计 的 


以 左上 角 坐 标 (Xmin,Ymin) 和 右 下 角 坐 标 (Xmax,Ymax) 来 确 ”小 目标 数据 集 与 文献 [6] 中 的 相 比 至 少 有 以 下 两 方面 的 优点 ; 


定 它 ， 如 图 1 所 示 , 新 坐标 可 以 表示 为 : 首先 ， 本 文 构建 的 小 目标 数据 集中 的 目标 更 小 ， 而 且 还 有 背 
Xmin = min(X1, X2, X3, X4) 景 对 其 的 被 动 遮 挡 和 目标 之 间 的 主动 遮挡 ， 另 外 由 于 数据 集 
Ymin = min(¥1, ¥2, Y3, Y4) (1) 来 源 于 视频 图 像 ， 目 标 是 在 不 断 移动 变换 位 置 的 ， 因 此 在 图 
A Ge Riles 像 的 边界 处 会 被 截断 ， 这 些 都 增加 了 小 目标 检测 的 困难 ， 更 


Ymax = max(Y1/, 72,73, Y4) 


能 评估 模型 在 小 目标 检测 上 的 优 劣 ， 其 次 ， 本 文 设 计 的 数据 
图 1b) 中 还 用 椭圆 形 标记 举例 了 构建 的 数据 集中 目标 存 。 集中 采用 视频 图 像 ， 由 于 图 像 之 间 存 在 着 时 序 信息 、 互 相关 
在 截断 和 遮挡 等 干扰 的 情况 。 联 ， 可 以 对 目标 的 形态 连续 采样 ， 有 利于 训练 出 更 具有 重 棒 

最 后 ， 将 已 处 理 后 的 Tower 数据 集 划 分 为 两 个 子 集 : 训 ”性 的 检测 模型 。 
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上 取得 了 比较 好 的 结果 。 不 过 ，SeletiveSearch 
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数据 集 如 PASCAL VOC 


生成 目标 候选 


2.1 PVANet 的 基本 原理 框 的 速度 很 慢 ,在 CPU 上 处 理 一 幅 图 像 大 约 需要 2 秒 的 时 间 。 
PVANet 是 一 种 轻 量 级 的 目标 检测 算法 ， 它 主要 分 两 阶 虽然 EdgeBoxes 在 生成 目标 候选 框 的 质量 和 处 理 速度 之 间 达 
段 实现 。 首先 , 特征 提取 网 络 输出 特征 图 到 RPN 生成 目标 候 到 了 很 好 的 平衡 ， 但 处 理 一 幅 图 像 仍然 需要 0.2s[1]。 与 整 条 
选 框 。 其 次 ， 上 阶段 生成 的 目标 候选 框 及 特征 图 经 过 池 化 层 目标 检测 线 相 比 ， 上 两 种 方法 生成 目标 候选 框 消耗 的 时 间 太 
和 全 连接 层 后 送 入 分 类 层 以 确定 目标 的 类 型 以 及 同时 送 入 边 多 ， 比 它们 都 不 能 满足 实时 性 要 求 。 此 外 ，SeletiveSearch 
界 框 回归 层 进 一 步调 整 目 标 边 框 的 位 置 。PVANet 整体 框架 和 EdgeBoxes 在 生成 大 目标 的 候选 框 时 表现 良好 ， 但 在 生成 
结构 如 图 2 所 示 。 小 目标 候选 框 时 效果 较 差 ， 测 试 发 现 是 因为 这 两 种 方法 对 
KD ee 标的 重要 特征 比如 轮廓 和 独特 的 颜色 等 表现 敏感 ， 而 小 目标 
| | \\ proces FF RHEE A i 通常 本 身 包含 很 少 的 信息 ， 因 此 这 两 种 方法 无 法 生成 高 质量 
= 目标 候选 枉 | ‘gees 的 小 目标 候选 框 。 
meg ER a ae RPN 己 被 证 明 是 当前 最 优 的 生成 目标 候选 框 的 方法 , 它 
图 2 PVANet 网 络 结构 图 大 大 缩短 了 目标 候选 框 的 生成 时 间 。 它 通过 在 特征 提取 网 络 
Fig.2 Architecture of pvanet 生成 的 特征 图 上 应 用 3x3 滑动 窗口 (sliding window) All 4H HE 
PVANet 的 贡献 主要 在 于 提出 了 一 个 高 效 的 特征 提取 网 (anchor box) 输 出 512 维 的 特征 ,然后 将 其 输入 到 后 续 的 两 个 
络 ， 基 于 层 数 多 但 通道 少 的 设计 原则 ， 采 用 C.ReLUMSI、 全 连接 层 一 分 类 层 和 边界 框 回 归 层 。 分 类 层 预 测 目 标 候 选 
Incepion07、HyperNet081 和 残 差 连接 09 等 技术 来 生成 特征 图 ， 框 分 别 是 前 景 和 背景 的 概率 ， 边 界 框 回归 层 输出 目标 候选 杠 
实现 了 加 速 模型 性 能 而 不 会 降低 检测 精确 度 这 ER o 的 4 个 位 置 坐标 。 在 PVANet 的 最 早 版 本 中 ， 滑 动 窗口 的 每 
PVANet 的 特征 提取 网 络 如 图 3 所 示 。 个 位 置 处 产生 25 个 锚 框 ， 由 5 个 不 同 的 尺度 (96、192、288、 
四 = 512、800) 和 5 个 不 同 的 纵横 比 (0.5、0.667、1.0、1.5、2.0) 
| N N aA 确定 。 本 文 构建 的 小 目标 数据 集中 ， 人 和 自行 车 的 平均 大 小 
i P =) | ”着 站 分 别 为 17x24 像素 、40x38 像素 。 显然 RPN 的 原始 尺度 对 于 
conv? conv2 conv3 ~~ ~~ 7 本 文 的 小 目标 来 说 太 大 了 ， 将 其 直接 用 于 检测 小 目标 时 精确 
fi MER CReLU 模 — Inception BUR 特征 图 度 较 差 ， 所 以 需要 缩小 错 框 以 适应 小 目标 的 尺寸 。 最 新 版 本 
RITER 的 PVANet 使 用 了 6 种 尺度 (32、48、80、144、256、512) 和 
图 3 PVANet 的 特征 提取 网 络 示意 图 7 个 纵横 比 (0.333、0.5、0.667、1.0、1.5、2.0、3.0) 构 成 42 
Fig.3 Feature extraction network of pvanet 个 锚 框 09。 新 版 本 增加 了 锚 框 的 数量 以 扩大 目标 检测 的 范 
PVANet 的 特征 提取 网 络 的 前 几 层 由 C.ReLU 模块 构成 。 围 ， 与 其 最 初版 本 比较 ， 在 PASCAL VOC 上 测试 的 平 
研究 发 现 ， 卷 积 神经 网 络 (CNN) 中 前 几 层 的 卷 积 核 之 间 存 在 均 精 确 度 提高 了 近 3%， 但 对 比 发 现 这 些 锚 框 的 尺寸 变化 范 
着 负 相 关 。 利 用 此 特点 ，C.ReLU 简单 地 连接 每 个 卷 积 核 的 围 太 大 且 它 的 最 小 的 尺寸 都 比 本 文 构建 的 小 目标 的 平均 尺寸 
输出 值 和 它 的 取 反 值 , 再 缩放 或 移 位 , 然后 进行 ReLU 计算 ， Re 
这 使 得 每 个 通道 的 斜率 和 激活 阔 值 不 同 于 其 相反 的 通道 ， 而 本 文 构建 的 小 目标 数据 集中 目标 的 尺寸 并 没有 非常 大 的 
且 使 输出 通道 的 数量 减少 了 一 半 即 不 需要 存储 其 相反 通道 的 变化 , 特别 是 小 目标 人 和 自行 车 的 尺度 差 不 超 过 20 像素 , 所 
参数 ， 同 时 没有 失去 准确 性 。C.ReLU 模块 的 采用 是 PVANet 以 本 文 减少 了 锚 框 尺寸 的 数量 和 大 小 ， 但 因为 人 和 自行 车 的 
能 实现 轻 量化 的 重要 原因 。 另 外 ，Inception 模块 被 用 于 剩余 边界 框 形 状 主要 是 矩形 ， 因 此 同时 尽 可 能 多 地 保持 锚 框 纵横 
的 特征 提取 网 络 。 作 为 可 以 同时 捕获 图 像 中 的 小 目标 和 大 比 ， 以 更 精准 地 定位 小 目标 。 
标的 最 具有 成 本 效益 的 构件 之 一 ，Inception 模块 可 以 为 不 同 基于 此 , 本文 为 滑动 窗口 的 每 个 位 置 选择 24 个 锚 框 , 包 


大 小 的 感受 野生 成 激活 值 。 特 别 地 ，Inception 模块 中 


的 1x1 


卷 积 核 有 利于 定位 小 
总 之 ， 对 于 实时 小 
看 优 于 其 他 算法 : 首先， 
以 提高 检测 速度 。 此 外 , 它 还 采用 RPN 
标 候 选 框 。 特 别 地 ，Inception 模块 的 

E 多 地 存储 低 
.2 针对 小 目标 检测 对 PVANet 的 改进 


标 候选 框 并 能 更 精 


三 


& ta 过 


amp 
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MD 


准 地 捕 


获 小 


标 检 测 ，PVANet 至 少 在 以 下 三 个 
它 采 用 C.ReLU 模块 来 减少 计 


网 络 来 生成 


标 。 


选用 可 以 使 


算 
高 质量 
可 


它 


网 络 的 必要 信息 , 这 对 小 目标 检测 是 有 利 的 。 


文献 [6] 指 出 ,小 目标 检测 的 挑战 主要 
的 生成 。 因 此 ， 本 文 致力 于 生成 高 质量 的 


的 超 参数 相 比 ， 学 习 率 是 影响 目标 检测 性 


要 通过 在 RPN 网 络 中 设置 合适 的 锚 框 来 实现 。 


来 自 可 标 


小 目标 


已 


之 一 ， 并 且 以 更 复杂 的 方式 控制 着 模型 的 


的 学 习 率 策 略 并 选择 最 优 的 策略 微调 模型 
性 能 。 


2.2.1 生成 小 目标 候选 杠 
SeletiveSearchP20 和 EdgeBoxes20 是 目 


效 容量 。 


以 提升 小 


当 学 习 


率 最 优 时 ， 模 型 的 有 效 容量 最 大 。 基 于 此 ， 本 文 将 比较 不 同 


标 检 测 


标 检测 中 常 


的 生 


含 4 种 尺寸 (16、24、32、64) 和 6 种 纵横 比 (0.33 


1、 


1.5, 


2), RPN 结构 如 图 4 所 示 。 
2x24 个 目标 4x24 个 目标 候选 
置信 度 分 数 框 的 位 置 坐标 


分 类 层 人 OO 边界 框 回 归 层 


512 维 


特征 图 


图 4 本文 对 RPN 网 络 的 实现 


3. 0.5. 0.667, 


em 24 个 错 杠 


Fig.4 Implementation of RPN in this paper 
本 文 提 出 的 方法 与 原 PVANet 方法 的 检测 效果 如 图 5 所 
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PVANet 方法 检测 图 示例 
(b) 旋 转 90 度 视角 、 


本 文 方法 检测 图 示例 


亮光 线 下 两 种 算法 检测 效果 图 
图 5 两 种 算法 检测 效果 对 比 示 例 图 


Fig. 5 Comparison of the detecting results of two algorithms 


图 6 中 (a) 和 (b) 分 别 是 两 种 视角 和 不 同 的 光照 条 件 下 两 


此 时 训练 损失 已 很 难得 到 改善 。 为 了 帮助 损失 函数 尽快 走出 


种 算法 的 检测 效果 对 比 示 例 图 ， 其 中 目标 框 上 显示 的 是 目标 
的 类 别 和 置信 和 度 分 数 。 比 较 发 现 原 PVANet 算法 检测 小 目标 
时 会 出 现 很 多 将 背景 误 判 成 目标 的 误 检 框 ， 特 别 在 目标 之 间 
互相 存在 遮挡 的 情况 下 ， 如 (a) 左 边 的 子 图 所 示 ;， 另外 截断 的 
目标 由 于 信息 量 少 容易 被 漏 检 ， 如 (p) 左 边 的 子 图 所 示 。 改 进 
后 的 PVANet 算法 由 于 生成 了 更 高 质量 的 小 目标 候选 框 ， 因 


“高 原 ” 状 态 ， 采 用 “step ”学 习 率 策略 中 ， 其 计算 公式 定 
义 为 


learningRate = base_ Ir x gamma meeerhiepsize) (2) 
其 中 : learningRate 指 学 习 率 ，base_lr 指 初始 学 习 率 ，gamma 
和 stepsize 是 参数 , iter 指 迭 代 次 数 , 当 迭 代 次 数 达到 stepsize 
的 整数 倍 时 学 习 率 开始 降低 。 本 文 将 初始 学 习 率 设置 为 


此 对 小 目标 的 定位 更 准确 ， 可 以 有 效 地 抵抗 目标 间 互 相 庶 挡 
的 干扰 , 误 检 框 比较 少 , 而 且 可 以 正确 检测 出 被 截断 的 目标 ， 
如 (2) 右 边 的 子 图 和 (b) 右 边 的 子 图 所 示 。 
2.2.2 选用 新 的 学 习 率 策略 

学 习 率 是 深度 学 习 中 一 个 非常 重要 的 超 参数 ， 它 可 以 指 
导 人 们 通过 损失 函数 的 梯度 来 调整 网 络 的 权重 。 一 般 而 言 更 
好 的 学 习 率 策略 意味 着 可 以 在 更 短 的 时 间 内 训练 出 更 优 的 网 
络 模 型 ， 因 此 调整 学 习 率 是 通过 训练 过 程 来 提升 模型 性 能 的 
重要 手段 之 一 。 
PVANet 基于 “plateau” 策 略 04 来 动态 控制 学 习 速 率 ， 
该 策略 监控 损失 函数 变动 的 平均 值 ， 发 现 若 在 某 段 迭代 周期 
中 其 改善 低 于 某 一 个 效 值 ， 则 确定 损失 函数 的 变化 此 时 处 于 
一 个 “高 原 ”， 学 习 率 则 降低 一 个 常数 因子 。 然 而 ， 本 文 首先 
采用 “plateau ”学 习 率 策略 来 训练 模型 ， 设 定 迭 代 次 数 为 
100000 次 ， 发 现 学 习 率 一 直 保 持 在 初始 值 0.001 不 变 。 学 习 
率 不 变 的 主要 原因 在 于 训练 过 程 中 目标 区 域 相 比 背景 区 域 非 
常 小 ， 这 导致 了 负 样 本 空间 大 ， 模 型 本 身 会 收敛 的 比较 慢 ， 
因此 直接 采取 通过 评估 损失 函数 的 动态 均值 来 改变 学 习 率 的 
“plateau ”策略 训练 模型 很 难 变化 学 习 率 。 因 此 需 采 取 其 他 
的 学 习 率 策略 来 改变 学 习 率 以 加 速 模 型 收敛 。 

观察 损失 函数 曲线 发 现 它 在 50000 次 迭代 后 趋 于 平坦 ， 


0.001， 并 在 50000 次 迭代 后 将 其 降 至 0.0001, 24t 100000 
次 后 测试 发 现 比 采用 “plateau ”学 习 率 策略 检测 精确 度 提 升 
了 约 0.45% 。 

尽管 低 的 学 习 率 可 以 保证 人 们 不 会 错过 任何 最 小 值 ， 
也 意味 着 不 得 不 花费 更 多 时 间 使 模型 收敛 ， 特 别 是 当 损 失 
函数 陷入 “高 原状 态 ” 时 。 文 献 [23] 指 出 减少 损失 的 难度 主 
要 来 自 鞍点 而 不 是 误差 曲面 上 的 局 部 最 小 点 。 考 虑 到 这 个 其 
素 ， 本 文 尝 试 另 一 种 学 习 率 策略 一 “inv”D224， 它 动态 地 改变 
学 习 率 来 加 速 损 失 函 数 的 收敛 ， 而 不 是 像 “step” 策 略 那 样 
均匀 地 改变 。 将 初始 学 习 率 设置 为 0.001， 参 数 gamma 和 
power 的 值 分 别 设 为 0.0001 和 0.75。“inv” 学 习 率 公式 定义 
为 


\a 


learningRate = base_/r x (1+ gammaxiter)‘?""” (3) 
其 中 : learningRate 指 学 习 率 ，base_lr 指 初始 学 习 率 ，iter 指 
ERIK, gamma 和 power 是 参数 。 设 置 训 练 次 数 为 100000 
次 ， 学 习 率 在 迭代 的 第 50000 次 “高 原 ” 处 时 动态 减 小 到 
0.00026, 在 100000 次 迭代 后 为 0.00017。 实 验 结果 表明 采用 
“inv” 学 习 率 策略 比 用 “plateau” 和 “step” 策 略 能 得 到 性 
能 更 好 的 网 络 模型 ， 更 适合 本 文 的 小 目标 检测 场景 。 
2.3 实验 结果 及 分 析 
本 文 使 用 Quadro K6000 GPU 进行 相应 的 实验 ， 为 评估 


测试 发 现 50000 次 迭代 后 检测 精确 度 提 高 地 很 缓慢 ， 为 此 猜 
测 训练 到 50000 次 时 ， 损 失 函 数 的 梯度 已 接近 “高 原 ” 状 态 


本 文 的 算法 在 小 目标 检测 问题 上 的 有 效 性 ， 采 用 平均 准确 率 
(average precision, AP) 和 所 有 类 别 的 平均 准确 率 (mean 
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average precision,mAP) 作 为 衡量 模型 性 能 的 评价 指标 。AP 是 ”学 习 率 策略 检测 精确 度 分 别提 高 了 0.45% 和 1.14% 。 此 外 ， 

评价 单个 类 别 检测 精确 度 的 最 直观 的 指标 , mAP 是 所 有 类 别 “step” 学 习 率 策略 需要 手动 设置 降低 学 习 率 的 迭代 次 数 间 
AP 的 均值 ， 可 以 评价 模型 的 综合 性 能 。 表 2 WHS ASCE 隔 ， 而 “inv” 学 习 率 策略 使 得 学 习 率 每 一 次 欠 代 时 都 减 小 ， 
方法 与 目前 主流 的 目标 检测 算法 Faster R-CNN, SSD, 每 次 减 小 的 是 一 个 很 小 的 数 ， 省 去 了 手动 设置 学 习 率 变动 的 


YOLOv2, PVANet 在 构建 的 小 目标 数据 集 上 的 测试 精确 度 和 ”和 迭代 间隔 可 能 造成 的 不 当 。 表 2 实验 结果 表明 采用 “inv”3 
运行 时 间 (frames per second, FPS) 的 对 比 情 况 。 ice SHS BE VI AR EH Bee OC AY RRA, LE] “step >] 2K 
R2 儿 种 算法 的 测试 精确 度 和 运行 时 间 对 比 策略 检测 精确 度 提高 了 0.69%。 本 文 的 方法 用 “inv” 学 习 率 
Table 2 Comparison of test accuracy and runtime of several 策略 在 构建 的 小 目标 数据 集 上 达到 了 72.09% 的 平均 测试 精 
algorithms 确 度 ， 比 原 PVANet 算法 检测 性 能 提升 了 10.67%， 可 见 学 习 
算法 (学 习 率 策略 ) AP(A)/% AP( 自 行车 )% mAP/% FPS ”速率 的 动态 变化 对 于 更 快 跨越 训练 过 程 中 误差 曲面 的 鞍点 并 
Faster R-CNN(step) 35.17 82.81 58.99 1.6 提高 检测 精确 度 起 着 重要 作用 
SSD300 (step) 32.10 76.37 54.24 15 3) GPU 性 能 对 运行 时 间 的 影响 
SSD500(step) 34.89 78.22 56.56 6 在 时 间 性 能 上 ,文献 [14] 指 出 PVANet 在 NVIDIA Titan X 
YOLOv2 416x416(step) 29.23 74.34 51.79 31 GPU 上 对 1056x640 像素 的 图 片 测试 速度 可 以 达到 21.7FPS 。 
YOLOv2 544x544(step) 31.36 75.86 53.61 22 本 文采 用 Quadro K6000 GPU 进行 测试 ， 对 于 960x544 像素 
PVANet 的 最 初版 本 (plateau) 39.20 83.65 6142 ， 的 图 片 ， 用 原 PVANet 算法 测试 速度 为 7FPS。 存 在 此 差异 的 
PVANet 的 最 新 版 本 (plateau) 48.00 86.52 67.26 主要 原因 在 于 NVIDIA Titan X GPU 的 计算 能 力 为 6.1， 而 
本 文 的 方法 (plateau) 53.64 88.26 70.95 Quadro K6000 GPU 的 计算 能 力 为 3.529， 基 本 上 是 前 者 的 
本 文 的 方法 (step) 54.18 88.61 71.40 10 半 ; 另外 本 文 的 测试 集中 的 每 张 图 片 包含 的 目标 数量 更 多 ， 
本 文 的 方法 (inv) 55.46 88.71 72.09 一 定 程 度 上 也 耗费 了 检测 时 间 。 本 文通 过 生成 高 质量 的 小 
1) 采用 不 同 的 方法 检测 效果 分 析 标 候选 框 ， 在 Quadro K6000 GPU 上 的 测试 速度 为 10FPS， 
现 有 基于 深度 学 习 的 目标 检测 算法 可 大 致 分 为 两 类 ， 一 比 原 PVANet 算法 在 速度 上 提升 了 30%。 


类 算法 先 产生 目标 候选 区 域 ， 再 进行 目标 分 类 和 目标 边界 框 3 ”结束 语 
预测 ， 以 Faster R-CNN、PVANet 等 为 代表 ， 这 类 算法 可 以 = 
较 好 地 定位 目标 ， 但 检测 速度 较 慢 ; 第 二 类 算法 是 直接 预测 本 文 主要 改进 了 目前 目标 检测 领域 性 能 很 优 的 PVANet 
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